Исследуемый набор данных состоит из уровней экспрессии 77 белков / модификаций белков, которые производили детектируемые сигналы в ядерной фракции коры. Было 38 контрольных мышей и 34 трисомических мыши (синдром Дауна), всего 72 мыши. В экспериментах было зарегистрировано 15 измерений каждого белка на образец / мышь. Таким образом, для контрольных мышей существует 38x15 или 570 измерений, а для трисомных мышей - 34x15 или 510 измерений. Набор данных содержит в общей сложности 1080 измерений на белок. Каждое измерение можно рассматривать как независимый образец / мышь.
Восемь классов мышей описаны на основе таких характеристик, как генотип, поведение и лечение. По генотипу мыши могут быть контрольными или трисомными. В соответствии с поведением некоторые мыши были стимулированы к обучению (context-shock), а другие нет (shock-context), и для того, чтобы оценить влияние препарата “мемантин” на восстановление способности к обучению у трисомных мышей, некоторые мыши были подвергнуты стимуляции через введение препарата, а другие нет.
Всего в эксперименте можно выделить 8 классов мышей:
c-CS-s: контрольные мыши, стимулированные к обучению, инъецированные физиологическим раствором (9 мышей)
c-CS-m: контрольные мыши, стимулированные к обучению, инъецированные мемантином (10 мышей)
c-SC-s: контрольные мыши , не стимулировали к обучению, инъецировали физиологический раствор (9 мышей)
c-SC-m: контрольные мыши, не стимулировали к обучению, инъецировали мемантин (10 мышей)
t-CS-s: мыши с трисомией, стимулированные к обучению, инъецированные физиологическим раствором (7 мышей)
t-CS-m: мыши с трисомией, стимулированные к обучению, инъецированные мемантином (9 мышей)
t-SC-s: мыши с трисомией, не стимулировали к обучению, вводили физиологический раствор (9 мышей)
t-SC-m: мыши с трисомией, не стимулировали к обучению, инъецировали мемантин (9 мышей)
Для анализа данных были загружены следующие пакеты:
require(xlsx)
require(dplyr)
require(tidyverse)
require(plyr)
require(psych)
require(car)
require(corrplot)
require(ggpubr)
require(multcomp)
require(PerformanceAnalytics)
require(vegan)
require(factoextra)
Загрузим данные и выведем их содержимое:
## 'data.frame': 1080 obs. of 82 variables:
## $ MouseID : Factor w/ 1080 levels "18899_1","18899_10",..: 46 53 54 55 56 57 58 59 60 47 ...
## $ DYRK1A_N : num 0.504 0.515 0.509 0.442 0.435 ...
## $ ITSN1_N : num 0.747 0.689 0.73 0.617 0.617 ...
## $ BDNF_N : num 0.43 0.412 0.418 0.359 0.359 ...
## $ NR1_N : num 2.82 2.79 2.69 2.47 2.37 ...
## $ NR2A_N : num 5.99 5.69 5.62 4.98 4.72 ...
## $ pAKT_N : num 0.219 0.212 0.209 0.223 0.213 ...
## $ pBRAF_N : num 0.178 0.173 0.176 0.176 0.174 ...
## $ pCAMKII_N : num 2.37 2.29 2.28 2.15 2.13 ...
## $ pCREB_N : num 0.232 0.227 0.23 0.207 0.192 ...
## $ pELK_N : num 1.75 1.6 1.56 1.6 1.5 ...
## $ pERK_N : num 0.688 0.695 0.677 0.583 0.551 ...
## $ pJNK_N : num 0.306 0.299 0.291 0.297 0.287 ...
## $ PKCA_N : num 0.403 0.386 0.381 0.377 0.364 ...
## $ pMEK_N : num 0.297 0.281 0.282 0.314 0.278 ...
## $ pNR1_N : num 1.022 0.957 1.004 0.875 0.865 ...
## $ pNR2A_N : num 0.606 0.588 0.602 0.52 0.508 ...
## $ pNR2B_N : num 1.88 1.73 1.73 1.57 1.48 ...
## $ pPKCAB_N : num 2.31 2.04 2.02 2.13 2.01 ...
## $ pRSK_N : num 0.442 0.445 0.468 0.478 0.483 ...
## $ AKT_N : num 0.859 0.835 0.814 0.728 0.688 ...
## $ BRAF_N : num 0.416 0.4 0.4 0.386 0.368 ...
## $ CAMKII_N : num 0.37 0.356 0.368 0.363 0.355 ...
## $ CREB_N : num 0.179 0.174 0.174 0.179 0.175 ...
## $ ELK_N : num 1.87 1.76 1.77 1.29 1.32 ...
## $ ERK_N : num 3.69 3.49 3.57 2.97 2.9 ...
## $ GSK3B_N : num 1.54 1.51 1.5 1.42 1.36 ...
## $ JNK_N : num 0.265 0.256 0.26 0.26 0.251 ...
## $ MEK_N : num 0.32 0.304 0.312 0.279 0.274 ...
## $ TRKA_N : num 0.814 0.781 0.785 0.734 0.703 ...
## $ RSK_N : num 0.166 0.157 0.161 0.162 0.155 ...
## $ APP_N : num 0.454 0.431 0.423 0.411 0.399 ...
## $ Bcatenin_N : num 3.04 2.92 2.94 2.5 2.46 ...
## $ SOD1_N : num 0.37 0.342 0.344 0.345 0.329 ...
## $ MTOR_N : num 0.459 0.424 0.425 0.429 0.409 ...
## $ P38_N : num 0.335 0.325 0.325 0.33 0.313 ...
## $ pMTOR_N : num 0.825 0.762 0.757 0.747 0.692 ...
## $ DSCR1_N : num 0.577 0.545 0.544 0.547 0.537 ...
## $ AMPKA_N : num 0.448 0.421 0.405 0.387 0.361 ...
## $ NR2B_N : num 0.586 0.545 0.553 0.548 0.513 ...
## $ pNUMB_N : num 0.395 0.368 0.364 0.367 0.352 ...
## $ RAPTOR_N : num 0.34 0.322 0.313 0.328 0.312 ...
## $ TIAM1_N : num 0.483 0.455 0.447 0.443 0.419 ...
## $ pP70S6_N : num 0.294 0.276 0.257 0.399 0.393 ...
## $ NUMB_N : num 0.182 0.182 0.184 0.162 0.16 ...
## $ P70S6_N : num 0.843 0.848 0.856 0.76 0.768 ...
## $ pGSK3B_N : num 0.193 0.195 0.201 0.184 0.186 ...
## $ pPKCG_N : num 1.44 1.44 1.52 1.61 1.65 ...
## $ CDK5_N : num 0.295 0.294 0.302 0.296 0.297 ...
## $ S6_N : num 0.355 0.355 0.386 0.291 0.309 ...
## $ ADARB1_N : num 1.34 1.31 1.28 1.2 1.21 ...
## $ AcetylH3K9_N : num 0.17 0.171 0.185 0.16 0.165 ...
## $ RRP1_N : num 0.159 0.158 0.149 0.166 0.161 ...
## $ BAX_N : num 0.189 0.185 0.191 0.185 0.188 ...
## $ ARC_N : num 0.106 0.107 0.108 0.103 0.105 ...
## $ ERBB4_N : num 0.145 0.15 0.145 0.141 0.142 ...
## $ nNOS_N : num 0.177 0.178 0.176 0.164 0.168 ...
## $ Tau_N : num 0.125 0.134 0.133 0.123 0.137 ...
## $ GFAP_N : num 0.115 0.118 0.118 0.117 0.116 ...
## $ GluR3_N : num 0.228 0.238 0.245 0.235 0.256 ...
## $ GluR4_N : num 0.143 0.142 0.142 0.145 0.141 ...
## $ IL1B_N : num 0.431 0.457 0.51 0.431 0.481 ...
## $ P3525_N : num 0.248 0.258 0.255 0.251 0.252 ...
## $ pCASP9_N : num 1.6 1.67 1.66 1.48 1.53 ...
## $ PSD95_N : num 2.01 2 2.02 1.96 2.01 ...
## $ SNCA_N : num 0.108 0.11 0.108 0.12 0.12 ...
## $ Ubiquitin_N : num 1.045 1.01 0.997 0.99 0.998 ...
## $ pGSK3B_Tyr216_N: num 0.832 0.849 0.847 0.833 0.879 ...
## $ SHH_N : num 0.189 0.2 0.194 0.192 0.206 ...
## $ BAD_N : num 0.123 0.117 0.119 0.133 0.13 ...
## $ BCL2_N : num NA NA NA NA NA NA NA NA NA NA ...
## $ pS6_N : num 0.106 0.107 0.108 0.103 0.105 ...
## $ pCFOS_N : num 0.108 0.104 0.106 0.111 0.111 ...
## $ SYP_N : num 0.427 0.442 0.436 0.392 0.434 ...
## $ H3AcK18_N : num 0.115 0.112 0.112 0.13 0.118 ...
## $ EGR1_N : num 0.132 0.135 0.133 0.147 0.14 ...
## $ H3MeK4_N : num 0.128 0.131 0.127 0.147 0.148 ...
## $ CaNA_N : num 1.68 1.74 1.93 1.7 1.84 ...
## $ Genotype : Factor w/ 2 levels "Control","Ts65Dn": 1 1 1 1 1 1 1 1 1 1 ...
## $ Treatment : Factor w/ 2 levels "Memantine","Saline": 1 1 1 1 1 1 1 1 1 1 ...
## $ Behavior : Factor w/ 2 levels "C/S","S/C": 1 1 1 1 1 1 1 1 1 1 ...
## $ class : Factor w/ 8 levels "c-CS-m","c-CS-s",..: 1 1 1 1 1 1 1 1 1 1 ...
Становится видно, что исследуемые данные имеют 82 переменные из которых 78 количественные и 4 качественные. Проверим количественые переменные на наличее пропущенных значений:
##
## FALSE TRUE
## 87164 1396
Анализ показал большое число пропусков значений в данных. Удалим строки с пропусками и выведем результат:
## 'data.frame': 552 obs. of 82 variables:
## $ MouseID : Factor w/ 1080 levels "18899_1","18899_10",..: 181 188 189 190 191 192 193 194 195 182 ...
## $ DYRK1A_N : num 0.65 0.616 0.637 0.577 0.543 ...
## $ ITSN1_N : num 0.829 0.842 0.853 0.755 0.758 ...
## $ BDNF_N : num 0.406 0.389 0.401 0.348 0.35 ...
## $ NR1_N : num 2.92 2.86 2.97 2.62 2.63 ...
## $ NR2A_N : num 5.17 5.19 5.35 4.73 4.74 ...
## $ pAKT_N : num 0.207 0.223 0.209 0.206 0.211 ...
## $ pBRAF_N : num 0.177 0.168 0.173 0.161 0.166 ...
## $ pCAMKII_N : num 3.73 3.65 3.81 3.78 3.87 ...
## $ pCREB_N : num 0.239 0.221 0.222 0.194 0.194 ...
## $ pELK_N : num 1.67 1.57 1.74 1.51 1.53 ...
## $ pERK_N : num 0.969 0.992 0.99 0.819 0.815 ...
## $ pJNK_N : num 0.321 0.343 0.329 0.312 0.315 ...
## $ PKCA_N : num 0.407 0.397 0.398 0.386 0.392 ...
## $ pMEK_N : num 0.255 0.271 0.264 0.242 0.254 ...
## $ pNR1_N : num 1.056 1.033 1.092 0.948 0.955 ...
## $ pNR2A_N : num 1.099 1.079 1.094 0.925 0.938 ...
## $ pNR2B_N : num 1.93 1.89 1.92 1.76 1.74 ...
## $ pPKCAB_N : num 2.23 2.33 1.95 2.3 2.48 ...
## $ pRSK_N : num 0.427 0.409 0.454 0.485 0.477 ...
## $ AKT_N : num 0.873 0.789 0.794 0.742 0.716 ...
## $ BRAF_N : num 0.513 0.512 0.533 0.459 0.486 ...
## $ CAMKII_N : num 0.343 0.345 0.352 0.338 0.339 ...
## $ CREB_N : num 0.168 0.167 0.173 0.162 0.161 ...
## $ ELK_N : num 1.85 1.85 1.97 1.36 1.4 ...
## $ ERK_N : num 3.37 3.43 3.43 2.81 2.89 ...
## $ GSK3B_N : num 1.5 1.47 1.54 1.44 1.47 ...
## $ JNK_N : num 0.246 0.242 0.252 0.235 0.235 ...
## $ MEK_N : num 0.305 0.3 0.346 0.275 0.27 ...
## $ TRKA_N : num 0.851 0.834 0.881 0.766 0.755 ...
## $ RSK_N : num 0.165 0.163 0.165 0.151 0.15 ...
## $ APP_N : num 0.442 0.437 0.443 0.408 0.411 ...
## $ Bcatenin_N : num 2.58 2.54 2.61 2.31 2.32 ...
## $ SOD1_N : num 0.341 0.338 0.342 0.312 0.309 ...
## $ MTOR_N : num 0.488 0.473 0.494 0.466 0.472 ...
## $ P38_N : num 0.401 0.402 0.411 0.395 0.394 ...
## $ pMTOR_N : num 0.781 0.787 0.813 0.741 0.739 ...
## $ DSCR1_N : num 0.534 0.533 0.565 0.523 0.542 ...
## $ AMPKA_N : num 0.432 0.43 0.441 0.392 0.39 ...
## $ NR2B_N : num 0.618 0.603 0.64 0.585 0.587 ...
## $ pNUMB_N : num 0.361 0.36 0.374 0.345 0.347 ...
## $ RAPTOR_N : num 0.322 0.296 0.3 0.287 0.29 ...
## $ TIAM1_N : num 0.427 0.426 0.445 0.4 0.406 ...
## $ pP70S6_N : num 0.252 0.252 0.252 0.277 0.355 ...
## $ NUMB_N : num 0.242 0.242 0.241 0.209 0.213 ...
## $ P70S6_N : num 1.061 1.064 1.059 0.969 0.973 ...
## $ pGSK3B_N : num 0.164 0.17 0.175 0.154 0.163 ...
## $ pPKCG_N : num 1.86 1.69 1.65 2.03 1.97 ...
## $ CDK5_N : num 0.321 0.32 0.318 0.3 0.303 ...
## $ S6_N : num 0.541 0.539 0.562 0.467 0.492 ...
## $ ADARB1_N : num 2.16 2.17 2.18 1.8 1.76 ...
## $ AcetylH3K9_N : num 0.135 0.136 0.136 0.126 0.124 ...
## $ RRP1_N : num 0.158 0.162 0.168 0.144 0.154 ...
## $ BAX_N : num 0.196 0.193 0.192 0.177 0.188 ...
## $ ARC_N : num 0.132 0.139 0.135 0.119 0.129 ...
## $ ERBB4_N : num 0.161 0.162 0.181 0.164 0.168 ...
## $ nNOS_N : num 0.211 0.211 0.203 0.195 0.197 ...
## $ Tau_N : num 0.21 0.193 0.204 0.194 0.197 ...
## $ GFAP_N : num 0.128 0.135 0.13 0.119 0.129 ...
## $ GluR3_N : num 0.292 0.291 0.27 0.277 0.283 ...
## $ GluR4_N : num 0.153 0.152 0.154 0.135 0.137 ...
## $ IL1B_N : num 0.527 0.52 0.506 0.527 0.543 ...
## $ P3525_N : num 0.348 0.365 0.35 0.317 0.34 ...
## $ pCASP9_N : num 1.69 1.66 1.72 1.59 1.62 ...
## $ PSD95_N : num 2.44 2.35 2.44 2.38 2.39 ...
## $ SNCA_N : num 0.168 0.175 0.156 0.145 0.151 ...
## $ Ubiquitin_N : num 1.14 1.23 1.23 1.06 1.13 ...
## $ pGSK3B_Tyr216_N: num 0.988 0.982 0.994 0.97 0.981 ...
## $ SHH_N : num 0.24 0.249 0.248 0.233 0.244 ...
## $ BAD_N : num 0.139 0.134 0.142 0.134 0.133 ...
## $ BCL2_N : num 0.113 0.122 0.13 0.107 0.113 ...
## $ pS6_N : num 0.132 0.139 0.135 0.119 0.129 ...
## $ pCFOS_N : num 0.129 0.143 0.148 0.121 0.143 ...
## $ SYP_N : num 0.487 0.468 0.463 0.479 0.438 ...
## $ H3AcK18_N : num 0.125 0.113 0.116 0.103 0.111 ...
## $ EGR1_N : num 0.147 0.161 0.161 0.144 0.156 ...
## $ H3MeK4_N : num 0.144 0.146 0.143 0.142 0.146 ...
## $ CaNA_N : num 1.63 1.56 1.57 1.65 1.61 ...
## $ Genotype : Factor w/ 2 levels "Control","Ts65Dn": 1 1 1 1 1 1 1 1 1 1 ...
## $ Treatment : Factor w/ 2 levels "Memantine","Saline": 1 1 1 1 1 1 1 1 1 1 ...
## $ Behavior : Factor w/ 2 levels "C/S","S/C": 1 1 1 1 1 1 1 1 1 1 ...
## $ class : Factor w/ 8 levels "c-CS-m","c-CS-s",..: 1 1 1 1 1 1 1 1 1 1 ...
## - attr(*, "na.action")= 'omit' Named int 1 2 3 4 5 6 7 8 9 10 ...
## ..- attr(*, "names")= chr "1" "2" "3" "4" ...
От 1080 наблюдений осталось всего 552. Выведем количество значений по группам для изначального и модифицированного наборов данных.
##
## c-CS-m c-CS-s c-SC-m c-SC-s t-CS-m t-CS-s t-SC-m t-SC-s
## 150 135 150 135 135 105 135 135
##
## c-CS-m c-CS-s c-SC-m c-SC-s t-CS-m t-CS-s t-SC-m t-SC-s
## 45 75 60 75 90 75 60 72
Согласно представленным таблицам, исследуемые группы имеют неравное число наблюдений в своем составе, что может отразиться на дальнейшем анализе. Следует отметить, что при удалении строчек с пропущенными значениями нарушение бланса между группами возрастает. Также поскольку количество пропусков крайне велико их замена на какие-либо другие значения способно исказить последующий анализ. Таким образом лучшим выходом из данной ситуации будет оставить dataset в своем изначальном виде.
Выведем график зависимости экспрессии BDNF от экспериментальных классов.
Согласно построенному графику можно первоначально предположить, что экспрессия BDNF у контрольных мышей стимулированных к обучению будет отличаться от таковой у остальных классов и иметь наиболее выcокие значения. Наиболее низкме значения, статестически отличные от значений в остальных классах будут наблюдаться у контрольных мышей не стимулированных к обучению, инъецированных физиологическим раствором. Несколько более высокий уровень будет наблюдаться у контрольных мышей не стимулированных к обучению, инъецированных мемантином и мышей с трисомией стимулированых к обучению. Отдельную группу с еще более высокими значениями экспрессии BDNF образуют не стимулированные к обучению мыши с трисомией.
График box-plot демонстрирует наличие не значительного числа выбросов в большинстве классов.
После общего описания данных прейдм к множественному сравнению при помощи однофактороного ANOVA. В начале построим линейную модель зависимости экспресии BDNF от экспериментальных классов и выведем ее описание:
##
## Call:
## lm(formula = BDNF_N ~ class, data = data_of_mice)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.175764 -0.028777 -0.001609 0.028701 0.159388
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.339217 0.003817 88.871 < 2e-16 ***
## classc-CS-s 0.003098 0.005546 0.559 0.5766
## classc-SC-m -0.048272 0.005398 -8.942 < 2e-16 ***
## classc-SC-s -0.025825 0.005546 -4.657 3.62e-06 ***
## classt-CS-m -0.026485 0.005546 -4.776 2.04e-06 ***
## classt-CS-s -0.033757 0.005948 -5.675 1.78e-08 ***
## classt-SC-m -0.018154 0.005546 -3.273 0.0011 **
## classt-SC-s -0.013631 0.005579 -2.443 0.0147 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.04675 on 1069 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.1097, Adjusted R-squared: 0.1039
## F-statistic: 18.82 on 7 and 1069 DF, p-value: < 2.2e-16
Полученные данные демонстрируют вклад всех классов за исключением контрольных мышей , не стимулированных к обучению, инъецированных физиологическим раствором.
Проведем анализ Anova и выведем результат:
## Anova Table (Type II tests)
##
## Response: BDNF_N
## Sum Sq Df F value Pr(>F)
## class 0.28784 7 18.816 < 2.2e-16 ***
## Residuals 2.33619 1069
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Согласно проведенному анализу экспериментальные классы мышей демонстрируют различные уровни продукции BDNF. Проверем корректность проведенного анализа. Построим график расстояний Кука и график остатков.
График растояний Кука в нормк. График остатков демонстрирует выбросы, однако box-plots расположены равномерно, их медианы располагаются на 1 уровне, что сведетельствует о равномерном разбросе остатков. Дополнительно построим квантильный график остатков.
Становится видно, что величина распределена приблизительно нормально, таким образом, действительно, экспериментальные классы мышей демонстрируют различные уровни продукции BDNF. Осталось выяснить какие группы различаются между собой для этого применим пост - хок тест Тьюки.
##
## Simultaneous Tests for General Linear Hypotheses
##
## Multiple Comparisons of Means: Tukey Contrasts
##
##
## Fit: lm(formula = BDNF_N ~ class, data = data_of_mice)
##
## Linear Hypotheses:
## Estimate Std. Error t value Pr(>|t|)
## c-CS-s - c-CS-m == 0 0.0030979 0.0055459 0.559 0.9993
## c-SC-m - c-CS-m == 0 -0.0482717 0.0053980 -8.942 <0.01 ***
## c-SC-s - c-CS-m == 0 -0.0258249 0.0055459 -4.657 <0.01 ***
## t-CS-m - c-CS-m == 0 -0.0264852 0.0055459 -4.776 <0.01 ***
## t-CS-s - c-CS-m == 0 -0.0337570 0.0059483 -5.675 <0.01 ***
## t-SC-m - c-CS-m == 0 -0.0181541 0.0055459 -3.273 0.0245 *
## t-SC-s - c-CS-m == 0 -0.0136310 0.0055790 -2.443 0.2216
## c-SC-m - c-CS-s == 0 -0.0513696 0.0055459 -9.263 <0.01 ***
## c-SC-s - c-CS-s == 0 -0.0289228 0.0056900 -5.083 <0.01 ***
## t-CS-m - c-CS-s == 0 -0.0295831 0.0056900 -5.199 <0.01 ***
## t-CS-s - c-CS-s == 0 -0.0368549 0.0060829 -6.059 <0.01 ***
## t-SC-m - c-CS-s == 0 -0.0212520 0.0056900 -3.735 <0.01 **
## t-SC-s - c-CS-s == 0 -0.0167289 0.0057223 -2.923 0.0688 .
## c-SC-s - c-SC-m == 0 0.0224468 0.0055459 4.047 <0.01 **
## t-CS-m - c-SC-m == 0 0.0217865 0.0055459 3.928 <0.01 **
## t-CS-s - c-SC-m == 0 0.0145147 0.0059483 2.440 0.2223
## t-SC-m - c-SC-m == 0 0.0301176 0.0055459 5.431 <0.01 ***
## t-SC-s - c-SC-m == 0 0.0346406 0.0055790 6.209 <0.01 ***
## t-CS-m - c-SC-s == 0 -0.0006603 0.0056900 -0.116 1.0000
## t-CS-s - c-SC-s == 0 -0.0079321 0.0060829 -1.304 0.8973
## t-SC-m - c-SC-s == 0 0.0076708 0.0056900 1.348 0.8798
## t-SC-s - c-SC-s == 0 0.0121939 0.0057223 2.131 0.3951
## t-CS-s - t-CS-m == 0 -0.0072718 0.0060829 -1.195 0.9332
## t-SC-m - t-CS-m == 0 0.0083311 0.0056900 1.464 0.8260
## t-SC-s - t-CS-m == 0 0.0128542 0.0057223 2.246 0.3239
## t-SC-m - t-CS-s == 0 0.0156029 0.0060829 2.565 0.1696
## t-SC-s - t-CS-s == 0 0.0201260 0.0061130 3.292 0.0230 *
## t-SC-s - t-SC-m == 0 0.0045231 0.0057223 0.790 0.9936
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)
Многие классы демонстрируют различия. Глядя на данную таблицу можно предположить, что трисомия и наличие стимулирования к обучению способны менять уровень экспрессии BNDF у мышей. Также следует отметить, что при некоторых стечениях обстоятельств также на продукцию BNDF у мышей способна влиять инъекция мемонтина (c-SC-s - c-SC-m ). Данный вопрос требует дополнительного изучения.
Для упрощению вычислений из 4 - х факторных переменых оставим одну - “class”, поскольку она должна отражать в себе оставшиеся 3 переменные. Также ввиду того, что данные содержат большое количествоколичественых переменных, адекватно визуализировать их корреляциионую матрицу не представляется возможным, поэтому было принято решение применить пользовательскую функцию от Catherine Williams доступный по адресу https://towardsdatascience.com/how-to-create-a-correlation-matrix-with-too-many-variables-309cc0c0a57. Суть применяемой функции сводится к преобразованию всех переменных в числовые значения. Затем код удаляет дубликаты и точные корреляции. Далее код настраивает таблицу данных, чтобы увидеть необработанные корреляции в таблице, поскольку необработанные числа могут быть полезны. Фрейм данных сортируется по наивысшей корреляции. Чтобы уменьшить огромное количество переменных, выбираются только переменные, превышающие определенный порог уровня значимости, установленный на 0,45. Результаты будут выведены в виде графика. Только корреляции с достаточно высоким уровнем значимости будут отмечены цветным кружком. Это дополнительно помогает вырезать шум.
## Var1 Var2 Freq
## 4363 AcetylH3K9_N Tau_N 0.8113332
## 4212 ARC_N ERBB4_N 0.7086411
## 5445 ERBB4_N pS6_N 0.7086411
## 3432 NUMB_N P70S6_N 0.6824487
## 5059 ARC_N Ubiquitin_N 0.6665736
## 5456 Ubiquitin_N pS6_N 0.6665736
## 4819 P70S6_N pCASP9_N 0.6333593
## 4674 ARC_N IL1B_N 0.6243183
## 5451 IL1B_N pS6_N 0.6243183
## 3740 NUMB_N S6_N 0.6184451
## 4048 NUMB_N BAX_N 0.6179417
## 4675 ERBB4_N IL1B_N 0.6177887
## 4906 ERBB4_N PSD95_N 0.6114546
## 4602 GluR3_N GluR4_N 0.6015178
## 4289 ARC_N nNOS_N 0.5930117
## 5446 nNOS_N pS6_N 0.5930117
## 4989 IL1B_N SNCA_N 0.5920284
## 4905 ARC_N PSD95_N 0.5911158
## 5454 PSD95_N pS6_N 0.5911158
## 5070 SNCA_N Ubiquitin_N 0.5844368
## 4907 nNOS_N PSD95_N 0.5789200
## 4280 P70S6_N nNOS_N 0.5752818
## 4829 ERBB4_N pCASP9_N 0.5694441
## 3663 NUMB_N CDK5_N 0.5637154
## 4830 nNOS_N pCASP9_N 0.5548202
## 4835 IL1B_N pCASP9_N 0.5481352
## 4914 pCASP9_N PSD95_N 0.5473894
## 4435 pGSK3B_N GFAP_N 0.5472758
## 4982 ARC_N SNCA_N 0.5457568
## 5455 SNCA_N pS6_N 0.5457568
## 4752 ERBB4_N P3525_N 0.5452492
## 5599 ERBB4_N SYP_N 0.5398836
## 5069 PSD95_N Ubiquitin_N 0.5358113
## 5060 ERBB4_N Ubiquitin_N 0.5295921
## 4441 RRP1_N GFAP_N 0.5245858
## 4290 ERBB4_N nNOS_N 0.5225784
## 5220 IL1B_N SHH_N 0.5156805
## 5607 pCASP9_N SYP_N 0.5154686
## 4912 IL1B_N PSD95_N 0.5061123
## 4828 ARC_N pCASP9_N 0.4987720
## 5453 pCASP9_N pS6_N 0.4987720
## 3742 pGSK3B_N S6_N 0.4944863
## 5066 IL1B_N Ubiquitin_N 0.4919129
## 3665 pGSK3B_N CDK5_N 0.4901457
## 4896 P70S6_N PSD95_N 0.4883970
## 4049 P70S6_N BAX_N 0.4844252
## 4054 ADARB1_N BAX_N 0.4801734
## 5224 SNCA_N SHH_N 0.4746816
## 4361 S6_N Tau_N 0.4738614
## 4833 GluR3_N pCASP9_N 0.4701700
## 5221 P3525_N SHH_N 0.4645827
## 5592 CDK5_N SYP_N 0.4643005
## 4052 CDK5_N BAX_N 0.4546871
После ознакомления с корреляциями пранализируем зависимую переменную на нормальность, построив qqplot.
Становится видно, что данные об экспрессии ERBB4 распределены относительно нормально. Далее приступаем к построению модели. Следует отметить, что поскольку все данные в таблице - это белковая экспрессия стандартизацию можно не прводить в следствии одинаковой размерности предикторов.
Таким образом, основываясь на данных корреляционной матрицы зададим модель следующим образом: ERBB4_N ~ P70S6_N + pGSK3B_N + AcetylH3K9_N + RRP1_N + IL1B_N + CDK5_N + S6_N + BAX_N + GluR3_N + SHH_N + class , data = data_for_ERBB4_N_model и выведем результаты.
##
## Call:
## lm(formula = ERBB4_N ~ P70S6_N + pGSK3B_N + AcetylH3K9_N + RRP1_N +
## IL1B_N + CDK5_N + S6_N + BAX_N + GluR3_N + SHH_N + class,
## data = data_for_ERBB4_N_model)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.040764 -0.005781 -0.000212 0.005101 0.031387
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0404772 0.0043962 9.207 < 2e-16 ***
## P70S6_N 0.0125882 0.0023571 5.341 1.13e-07 ***
## pGSK3B_N 0.1236334 0.0216098 5.721 1.38e-08 ***
## AcetylH3K9_N 0.0109014 0.0019427 5.611 2.56e-08 ***
## RRP1_N -0.0636483 0.0098740 -6.446 1.74e-10 ***
## IL1B_N 0.0992269 0.0052473 18.910 < 2e-16 ***
## CDK5_N 0.0776638 0.0099089 7.838 1.11e-14 ***
## S6_N 0.0059162 0.0033846 1.748 0.08075 .
## BAX_N 0.1239437 0.0203595 6.088 1.60e-09 ***
## GluR3_N -0.0478388 0.0091858 -5.208 2.29e-07 ***
## SHH_N 0.0255505 0.0116143 2.200 0.02803 *
## classc-CS-s -0.0057658 0.0011087 -5.201 2.38e-07 ***
## classc-SC-m -0.0035246 0.0013225 -2.665 0.00781 **
## classc-SC-s 0.0008041 0.0012715 0.632 0.52729
## classt-CS-m -0.0082370 0.0010561 -7.800 1.48e-14 ***
## classt-CS-s -0.0086605 0.0012255 -7.067 2.86e-12 ***
## classt-SC-m 0.0058520 0.0013014 4.497 7.66e-06 ***
## classt-SC-s -0.0023019 0.0011110 -2.072 0.03851 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.008744 on 1062 degrees of freedom
## Multiple R-squared: 0.6687, Adjusted R-squared: 0.6633
## F-statistic: 126.1 on 17 and 1062 DF, p-value: < 2.2e-16
## GVIF Df GVIF^(1/(2*Df))
## P70S6_N 2.342103 1 1.530393
## pGSK3B_N 2.456658 1 1.567373
## AcetylH3K9_N 1.828827 1 1.352341
## RRP1_N 1.399633 1 1.183061
## IL1B_N 2.616258 1 1.617485
## CDK5_N 1.935974 1 1.391393
## S6_N 3.053569 1 1.747447
## BAX_N 2.073177 1 1.439853
## GluR3_N 1.449118 1 1.203793
## SHH_N 1.599656 1 1.264775
## class 6.659190 7 1.145027
Исключим незначимые предикторы с большим VIF.
##
## Call:
## lm(formula = ERBB4_N ~ P70S6_N + pGSK3B_N + AcetylH3K9_N + RRP1_N +
## IL1B_N + CDK5_N + BAX_N + GluR3_N + SHH_N + class, data = data_for_ERBB4_N_model)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.042430 -0.005732 -0.000284 0.005051 0.031319
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.972e-02 4.379e-03 9.071 < 2e-16 ***
## P70S6_N 1.423e-02 2.165e-03 6.572 7.77e-11 ***
## pGSK3B_N 1.297e-01 2.135e-02 6.078 1.70e-09 ***
## AcetylH3K9_N 1.263e-02 1.674e-03 7.546 9.62e-14 ***
## RRP1_N -6.558e-02 9.822e-03 -6.677 3.92e-11 ***
## IL1B_N 1.003e-01 5.219e-03 19.209 < 2e-16 ***
## CDK5_N 8.050e-02 9.785e-03 8.227 5.58e-16 ***
## BAX_N 1.212e-01 2.032e-02 5.965 3.32e-09 ***
## GluR3_N -4.906e-02 9.168e-03 -5.351 1.07e-07 ***
## SHH_N 2.713e-02 1.159e-02 2.340 0.0195 *
## classc-CS-s -5.847e-03 1.109e-03 -5.274 1.62e-07 ***
## classc-SC-m -4.373e-03 1.231e-03 -3.551 0.0004 ***
## classc-SC-s 4.943e-05 1.197e-03 0.041 0.9671
## classt-CS-m -8.124e-03 1.055e-03 -7.699 3.12e-14 ***
## classt-CS-s -8.182e-03 1.196e-03 -6.843 1.31e-11 ***
## classt-SC-m 5.062e-03 1.222e-03 4.144 3.69e-05 ***
## classt-SC-s -2.251e-03 1.112e-03 -2.025 0.0431 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.008753 on 1063 degrees of freedom
## Multiple R-squared: 0.6677, Adjusted R-squared: 0.6627
## F-statistic: 133.5 on 16 and 1063 DF, p-value: < 2.2e-16
## GVIF Df GVIF^(1/(2*Df))
## P70S6_N 1.971685 1 1.404167
## pGSK3B_N 2.392541 1 1.546784
## AcetylH3K9_N 1.354894 1 1.163999
## RRP1_N 1.382144 1 1.175646
## IL1B_N 2.583299 1 1.607265
## CDK5_N 1.884192 1 1.372659
## BAX_N 2.060896 1 1.435582
## GluR3_N 1.440768 1 1.200320
## SHH_N 1.590033 1 1.260965
## class 4.596289 7 1.115103
##
## Call:
## lm(formula = ERBB4_N ~ P70S6_N + pGSK3B_N + AcetylH3K9_N + RRP1_N +
## IL1B_N + CDK5_N + BAX_N + GluR3_N + SHH_N + class, data = data_for_ERBB4_N_model)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.042430 -0.005732 -0.000284 0.005051 0.031319
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.972e-02 4.379e-03 9.071 < 2e-16 ***
## P70S6_N 1.423e-02 2.165e-03 6.572 7.77e-11 ***
## pGSK3B_N 1.297e-01 2.135e-02 6.078 1.70e-09 ***
## AcetylH3K9_N 1.263e-02 1.674e-03 7.546 9.62e-14 ***
## RRP1_N -6.558e-02 9.822e-03 -6.677 3.92e-11 ***
## IL1B_N 1.003e-01 5.219e-03 19.209 < 2e-16 ***
## CDK5_N 8.050e-02 9.785e-03 8.227 5.58e-16 ***
## BAX_N 1.212e-01 2.032e-02 5.965 3.32e-09 ***
## GluR3_N -4.906e-02 9.168e-03 -5.351 1.07e-07 ***
## SHH_N 2.713e-02 1.159e-02 2.340 0.0195 *
## classc-CS-s -5.847e-03 1.109e-03 -5.274 1.62e-07 ***
## classc-SC-m -4.373e-03 1.231e-03 -3.551 0.0004 ***
## classc-SC-s 4.943e-05 1.197e-03 0.041 0.9671
## classt-CS-m -8.124e-03 1.055e-03 -7.699 3.12e-14 ***
## classt-CS-s -8.182e-03 1.196e-03 -6.843 1.31e-11 ***
## classt-SC-m 5.062e-03 1.222e-03 4.144 3.69e-05 ***
## classt-SC-s -2.251e-03 1.112e-03 -2.025 0.0431 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.008753 on 1063 degrees of freedom
## Multiple R-squared: 0.6677, Adjusted R-squared: 0.6627
## F-statistic: 133.5 on 16 and 1063 DF, p-value: < 2.2e-16
## GVIF Df GVIF^(1/(2*Df))
## P70S6_N 1.971685 1 1.404167
## pGSK3B_N 2.392541 1 1.546784
## AcetylH3K9_N 1.354894 1 1.163999
## RRP1_N 1.382144 1 1.175646
## IL1B_N 2.583299 1 1.607265
## CDK5_N 1.884192 1 1.372659
## BAX_N 2.060896 1 1.435582
## GluR3_N 1.440768 1 1.200320
## SHH_N 1.590033 1 1.260965
## class 4.596289 7 1.115103
Теперь после того как все предикторы подобраны, проведем тест полученной модели:
График остатков выходит за пределы 2 - х стандартных отклонений, что свидетельствует о неточности модели.
График расстояний Кука выглядит приемлемо. Превышение границы в 2 не наблюдается.
## [1] 359 142
qqPlot ведет себя относительно стабильно, однако по краям наблюдаются выбросы.
Подводя итоги можно предположить, что точность модели можно повысить путем проверки предикторов на выбросы и исключения их из выборки. Проиллюстрируем данную гипотизу выводом матрицы корреляций для предикторов используемых в модели:
Действительно, становится видно, что резульаты экспрессии RRP1, AcetylH3K9 имеют выбросы. На данном этапе необходимо принять решение: Производить дальнейшие манипуляции или переходить к другим методам анализа. В данном случае имеет смысл выбрать 2 вариант, ввиду того, что датасет содержит большое число переменных с автокорелляциями и выбросами отследить которые все до единого не представляется возможным (с учетом предсказательной возможности модели в 0,67). Все это свидетельствует о том, что правильным выходом из данной ситуации может быть PCA - анализ.
Возьмем датасет с удаленными значениями Na, так как функция rda не работает с пустыми значениями. Проведем ординацию и выведем результат:
##
## Call:
## rda(X = df_analys, scale = TRUE)
##
## Partitioning of correlations:
## Inertia Proportion
## Total 81 1
## Unconstrained 81 1
##
## Eigenvalues, and their contribution to the correlations
##
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Eigenvalue 23.0970 14.1407 7.97297 7.31147 3.69666 3.30102 2.74878
## Proportion Explained 0.2851 0.1746 0.09843 0.09027 0.04564 0.04075 0.03394
## Cumulative Proportion 0.2851 0.4597 0.55816 0.64842 0.69406 0.73481 0.76875
## PC8 PC9 PC10 PC11 PC12 PC13 PC14
## Eigenvalue 2.36256 1.93998 1.50754 1.40042 1.08301 0.91002 0.798595
## Proportion Explained 0.02917 0.02395 0.01861 0.01729 0.01337 0.01123 0.009859
## Cumulative Proportion 0.79792 0.82187 0.84048 0.85777 0.87114 0.88237 0.892232
## PC15 PC16 PC17 PC18 PC19 PC20
## Eigenvalue 0.618764 0.593689 0.55323 0.504122 0.489021 0.413466
## Proportion Explained 0.007639 0.007329 0.00683 0.006224 0.006037 0.005105
## Cumulative Proportion 0.899871 0.907200 0.91403 0.920254 0.926291 0.931396
## PC21 PC22 PC23 PC24 PC25 PC26
## Eigenvalue 0.407193 0.351959 0.329942 0.317443 0.294381 0.267728
## Proportion Explained 0.005027 0.004345 0.004073 0.003919 0.003634 0.003305
## Cumulative Proportion 0.936423 0.940768 0.944842 0.948761 0.952395 0.955700
## PC27 PC28 PC29 PC30 PC31 PC32
## Eigenvalue 0.228920 0.217243 0.203002 0.191693 0.172132 0.151264
## Proportion Explained 0.002826 0.002682 0.002506 0.002367 0.002125 0.001867
## Cumulative Proportion 0.958526 0.961208 0.963715 0.966081 0.968206 0.970074
## PC33 PC34 PC35 PC36 PC37 PC38
## Eigenvalue 0.135671 0.131748 0.12473 0.12397 0.114109 0.105775
## Proportion Explained 0.001675 0.001627 0.00154 0.00153 0.001409 0.001306
## Cumulative Proportion 0.971749 0.973375 0.97492 0.97645 0.977854 0.979160
## PC39 PC40 PC41 PC42 PC43 PC44
## Eigenvalue 0.102554 0.096625 0.090521 0.083994 0.0798158 0.0751597
## Proportion Explained 0.001266 0.001193 0.001118 0.001037 0.0009854 0.0009279
## Cumulative Proportion 0.980426 0.981619 0.982737 0.983774 0.9847590 0.9856869
## PC45 PC46 PC47 PC48 PC49
## Eigenvalue 0.0725920 0.0689891 0.067716 0.0591598 0.0584746
## Proportion Explained 0.0008962 0.0008517 0.000836 0.0007304 0.0007219
## Cumulative Proportion 0.9865831 0.9874348 0.988271 0.9890012 0.9897231
## PC50 PC51 PC52 PC53 PC54
## Eigenvalue 0.0547820 0.052892 0.0499417 0.0467837 0.0462235
## Proportion Explained 0.0006763 0.000653 0.0006166 0.0005776 0.0005707
## Cumulative Proportion 0.9903994 0.991052 0.9916690 0.9922466 0.9928172
## PC55 PC56 PC57 PC58 PC59 PC60
## Eigenvalue 0.0440503 0.0416746 0.0401999 0.036614 0.034504 0.0332448
## Proportion Explained 0.0005438 0.0005145 0.0004963 0.000452 0.000426 0.0004104
## Cumulative Proportion 0.9933611 0.9938756 0.9943719 0.994824 0.995250 0.9956603
## PC61 PC62 PC63 PC64 PC65
## Eigenvalue 0.0318440 0.0311336 0.0297768 0.0283938 0.0263085
## Proportion Explained 0.0003931 0.0003844 0.0003676 0.0003505 0.0003248
## Cumulative Proportion 0.9960534 0.9964378 0.9968054 0.9971559 0.9974807
## PC66 PC67 PC68 PC69 PC70 PC71
## Eigenvalue 0.0244124 0.0216714 0.02025 0.0193413 0.0181718 0.0162
## Proportion Explained 0.0003014 0.0002675 0.00025 0.0002388 0.0002243 0.0002
## Cumulative Proportion 0.9977821 0.9980497 0.99830 0.9985385 0.9987628 0.9990
## PC72 PC73 PC74 PC75 PC76
## Eigenvalue 0.0152113 0.0135812 0.0116809 0.0111865 0.0103286
## Proportion Explained 0.0001878 0.0001677 0.0001442 0.0001381 0.0001275
## Cumulative Proportion 0.9991506 0.9993183 0.9994625 0.9996006 0.9997281
## PC77 PC78 PC79
## Eigenvalue 0.0083375 7.775e-03 5.912e-03
## Proportion Explained 0.0001029 9.599e-05 7.299e-05
## Cumulative Proportion 0.9998310 9.999e-01 1.000e+00
##
## Scaling 2 for species and site scores
## * Species are scaled proportional to eigenvalues
## * Sites are unscaled: weighted dispersion equal on all dimensions
## * General scaling constant of scores: 14.5348
##
##
## Species scores
##
## PC1 PC2 PC3 PC4 PC5 PC6
## DYRK1A_N -0.3775 -1.1327 0.01003 -0.5280 0.347048 -0.46049
## ITSN1_N -0.6956 -1.1489 0.10282 -0.3125 0.480518 -0.39270
## BDNF_N -1.4202 -0.3548 -0.07998 -0.2886 -0.080859 -0.05662
## NR1_N -1.4287 -0.2934 -0.46739 0.1449 -0.078974 0.14413
## NR2A_N -1.2911 -0.3673 -0.63365 0.1151 -0.001899 0.02969
## pAKT_N -1.0188 0.8294 0.39623 -0.5418 -0.010289 0.35013
## ....
##
##
## Site scores (weighted sums of species scores)
##
## PC1 PC2 PC3 PC4 PC5 PC6
## sit1 -0.7864 -0.6022 -0.4227 0.5070 -0.6061 -0.75971
## sit2 -0.7301 -0.5204 -0.3526 0.5670 -0.7246 -0.95352
## sit3 -0.8653 -0.5329 -0.3707 0.4401 -0.6368 -0.95958
## sit4 -0.2861 -0.6019 -0.4035 0.2553 -0.6273 -0.05184
## sit5 -0.3529 -0.4977 -0.2366 0.3427 -0.7560 -0.42414
## sit6 -0.3560 -0.4857 -0.2295 0.4010 -0.6532 -0.40014
## ....
Как можно видеть из summary, первые 4 компонента объясняют 65% выборки.
Как видно из графиков, вклад различных компонент в объяснения изменчивости существеннен до PC5. Таким образом, ее тоже придется включить. Выведем влияния компонент на исследуемые переменные и попытаемся интерпретировать результат:
## PC1 PC2 PC3 PC4
## DYRK1A_N -0.048636223 -0.186515841 0.002198808 -0.120901870
## ITSN1_N -0.089627912 -0.189189863 0.022547888 -0.071568979
## BDNF_N -0.182974999 -0.058427471 -0.017539865 -0.066088370
## NR1_N -0.184069498 -0.048318340 -0.102494845 0.033176899
## NR2A_N -0.166346849 -0.060475730 -0.138953709 0.026361692
## pAKT_N -0.131267360 0.136574270 0.086891206 -0.124060249
## pBRAF_N -0.130094473 0.118929203 0.066598566 -0.146239101
## pCAMKII_N -0.111690573 0.102394836 0.042360346 -0.025643515
## pCREB_N -0.179951412 0.014131530 0.066491246 0.019891507
## pELK_N -0.074047362 -0.068259133 -0.098436461 -0.110376392
## pERK_N -0.042530098 -0.195684944 -0.029085699 -0.095442768
## pJNK_N -0.168903851 0.085421469 0.029457743 -0.035602885
## PKCA_N -0.152128880 -0.077333124 0.084984659 -0.092015957
## pMEK_N -0.164356735 0.102980326 0.068239090 -0.085917493
## pNR1_N -0.173334200 -0.020124597 -0.144901043 0.042587830
## pNR2A_N -0.134207638 0.082170571 -0.087154503 0.132687122
## pNR2B_N -0.178735793 -0.013917056 -0.129827974 0.054562586
## pPKCAB_N -0.087450072 -0.158820755 0.103856626 -0.074728196
## pRSK_N -0.105419186 -0.002994262 0.184805037 -0.098225086
## AKT_N -0.157520502 0.058926655 -0.104470181 0.040638831
## BRAF_N -0.043750596 -0.159681223 0.020960762 -0.172677031
## CAMKII_N -0.154158458 0.085625431 0.009404601 -0.125204882
## CREB_N -0.127272612 0.088699874 0.115323669 -0.168551788
## ELK_N -0.161084608 -0.075501524 -0.063165467 0.109072661
## ERK_N -0.163093078 -0.109350964 -0.093067655 0.071078918
## GSK3B_N -0.124739516 -0.184571102 -0.012416352 -0.078944335
## JNK_N -0.169108275 0.008458947 0.055159197 -0.138278158
## MEK_N -0.189007348 0.006149500 0.035625851 -0.021182085
## TRKA_N -0.188973866 -0.071714275 0.013829212 -0.003925011
## RSK_N -0.124540393 0.076171840 0.079473303 -0.163019364
## APP_N -0.144537727 -0.073636561 0.061754382 -0.112390737
## Bcatenin_N -0.180519205 -0.050795422 -0.079941100 0.074640642
## SOD1_N -0.050127578 0.173783270 -0.035406114 0.095592450
## MTOR_N -0.098840365 0.126525816 -0.151551662 -0.120889106
## P38_N -0.030605284 0.200955019 -0.108782279 -0.072507674
## pMTOR_N -0.132229722 0.119893975 -0.140375324 -0.032408854
## DSCR1_N -0.108488042 0.097070747 -0.065827521 -0.174844647
## AMPKA_N -0.145334730 0.014763415 -0.173081202 -0.073141505
## NR2B_N -0.134655858 0.112850727 -0.120871997 -0.092136710
## pNUMB_N -0.119684868 -0.077912308 -0.028436007 -0.153068822
## RAPTOR_N -0.109414644 0.110911134 -0.069624736 -0.179189993
## TIAM1_N -0.138582435 0.023138807 -0.068591979 -0.125514707
## pP70S6_N -0.018540822 0.076401892 0.150214793 -0.160173195
## NUMB_N -0.107384056 -0.144561564 0.028019804 0.177593722
## P70S6_N -0.104247794 -0.056370368 -0.048033292 0.217563040
## pGSK3B_N -0.082356183 -0.126338242 0.187398942 0.039692359
## pPKCG_N -0.033301477 -0.044596190 0.259282084 -0.018893597
## CDK5_N -0.092238679 -0.093080550 0.124556008 0.087236585
## S6_N -0.047017094 -0.141040997 0.196608792 0.082314906
## ADARB1_N -0.117065338 -0.084093804 -0.054499158 0.026895306
## AcetylH3K9_N -0.020854340 0.006346397 0.220151518 0.045013795
## RRP1_N -0.016520110 0.025341951 0.139697658 0.002405727
## BAX_N -0.118048212 -0.059253377 0.081315175 0.184528746
## ARC_N -0.106436578 0.158392705 -0.042572135 0.169359269
## ERBB4_N -0.118474142 0.081611258 0.089365865 0.158467662
## nNOS_N -0.103791212 0.067088335 0.019291584 0.187345798
## Tau_N -0.043549097 0.007797456 0.188822512 0.081356291
## GFAP_N -0.023725126 -0.036795762 0.190579582 0.001503282
## GluR3_N -0.014346555 -0.025042372 -0.042278251 0.207573465
## GluR4_N -0.071797738 -0.033141151 0.069631847 0.185864321
## IL1B_N 0.002726217 0.178798791 0.030147318 0.162635856
## P3525_N -0.080732155 0.008969222 0.171228698 0.117683585
## pCASP9_N -0.083707555 0.016674722 0.047056644 0.227872613
## PSD95_N -0.113803110 0.073268635 0.040173637 0.188031055
## SNCA_N -0.005116831 0.210716749 -0.001544584 0.045303835
## Ubiquitin_N -0.106617335 0.162184994 0.089481298 0.071872533
## pGSK3B_Tyr216_N -0.061870011 -0.076946259 0.188567009 0.066739004
## SHH_N 0.001133055 0.124041277 0.075108425 0.032402835
## BAD_N 0.028143854 0.135503047 0.203107300 -0.109427183
## BCL2_N 0.009888852 0.171545015 0.107303771 -0.064824956
## pS6_N -0.106436578 0.158392705 -0.042572135 0.169359269
## pCFOS_N 0.066538643 0.128185075 0.037930646 -0.021847291
## SYP_N -0.147794903 -0.003044304 0.057280848 0.110202460
## H3AcK18_N -0.007207577 0.097813727 0.218462875 0.023402032
## EGR1_N 0.039010844 0.198254273 0.073373290 -0.054208680
## H3MeK4_N 0.012835065 0.169080858 0.206209787 -0.042297729
## CaNA_N -0.043174474 -0.198839821 0.109924550 0.025220355
## Genotype -0.019904478 -0.050222428 0.191928005 -0.068424770
## Treatment -0.007497068 -0.028035084 0.013533824 0.071017423
## Behavior -0.027959300 0.225574200 -0.031830288 0.084179434
## class -0.032835367 0.051212878 0.164544376 -0.007780309
## PC5
## DYRK1A_N 0.1117682443
## ITSN1_N 0.1547529478
## BDNF_N -0.0260408952
## NR1_N -0.0254337641
## NR2A_N -0.0006116782
## pAKT_N -0.0033137399
## pBRAF_N -0.0356778215
## pCAMKII_N -0.0349603371
## pCREB_N 0.0752967213
## pELK_N 0.1054085251
## pERK_N 0.0259340662
## pJNK_N -0.0556849399
## PKCA_N -0.1505316015
## pMEK_N -0.0055497636
## pNR1_N -0.0162033884
## pNR2A_N -0.0805671336
## pNR2B_N -0.0170506429
## pPKCAB_N -0.2083187334
## pRSK_N -0.0784498536
## AKT_N 0.0980780285
## BRAF_N 0.0804143015
## CAMKII_N 0.0027579229
## CREB_N -0.0229569258
## ELK_N 0.0520845875
## ERK_N 0.0302177710
## GSK3B_N -0.0172958333
## JNK_N -0.0570414104
## MEK_N -0.0125499642
## TRKA_N -0.0228595976
## RSK_N -0.0339481484
## APP_N 0.1524791238
## Bcatenin_N 0.0525550449
## SOD1_N 0.1863944490
## MTOR_N -0.0479993313
## P38_N -0.0221034595
## pMTOR_N -0.0339284208
## DSCR1_N 0.0255963310
## AMPKA_N 0.0010955592
## NR2B_N -0.0207351177
## pNUMB_N -0.0183147018
## RAPTOR_N 0.0102553572
## TIAM1_N 0.1121487695
## pP70S6_N -0.0300695402
## NUMB_N 0.0135936671
## P70S6_N 0.0705295784
## pGSK3B_N -0.1163221057
## pPKCG_N -0.1023313948
## CDK5_N -0.1441930012
## S6_N 0.1469653472
## ADARB1_N -0.0453110521
## AcetylH3K9_N 0.2373660441
## RRP1_N -0.0315813368
## BAX_N -0.0517769743
## ARC_N 0.0676924284
## ERBB4_N 0.0514687586
## nNOS_N 0.0646350566
## Tau_N 0.3314105333
## GFAP_N -0.1269545279
## GluR3_N -0.2139354370
## GluR4_N -0.1172821714
## IL1B_N 0.0406342555
## P3525_N -0.0458690943
## pCASP9_N -0.1017167489
## PSD95_N -0.0685641263
## SNCA_N -0.0349285335
## Ubiquitin_N 0.0006410577
## pGSK3B_Tyr216_N -0.0869042385
## SHH_N 0.0046617920
## BAD_N -0.1673299793
## BCL2_N -0.1676640408
## pS6_N 0.0676924284
## pCFOS_N -0.1756054642
## SYP_N -0.1370893540
## H3AcK18_N 0.1685759118
## EGR1_N -0.1237677521
## H3MeK4_N -0.0044784372
## CaNA_N -0.1532080036
## Genotype 0.3047119269
## Treatment -0.0674133089
## Behavior 0.1294873323
## class 0.3236199992
## attr(,"const")
## [1] 14.5348
По скольку переменных очень много интерпретируем только те, котрые рассматривались в первых 2 - х разделах настоящей работы. Так, при увеличении всех 5 компонент значение экспрессии BDNF снижается и, напротив, экспрессия ERBB4 увеличевается при росте всех компонент, кроме 1.
Посторим график ординации в осях главных компонент разделенных по классам:
На данных графиках слабо видны различия между группами. Посмотрим что покажут данные nMDS.
##
## Call:
## metaMDS(comm = df_analys, distance = "bray", autotransform = F)
##
## global Multidimensional Scaling using monoMDS
##
## Data: df_analys
## Distance: bray
##
## Dimensions: 2
## Stress: 0.2274435
## Stress type 1, weak ties
## Two convergent solutions found after 20 tries
## Scaling: centring, PC rotation, halfchange scaling
## Species: expanded scores based on 'df_analys'
Применем метод вычисления расстояний bray, так как при его использовании показатель Stress максимален и равен 0.23, что превышает значение в 0.15. Тоесть качество ординации - приемлемо. Из графика можно видеть, что происходит разделение данных по наличию стимуляции к обучнению и диагнозу, что совподает с данными полученными в процессе ранее проведенной Anova.
Попробуем провести perMANOVA - анализ, чтобы понять, как именно различаются исследуемые группы. Для выравнивание значений в данных проведем их центрирование с логарифмированием. Результаты выведем ввиде box-plot.
Как видно из графика, центрирование удалось, однако, во всех переменных присутствует большое число выбросов, что скорей всего негативно отразится на дальнейшем анализе. Проверим на сколько сильно различаются дисперсии в группах:
## Analysis of Variance Table
##
## Response: Distances
## Df Sum Sq Mean Sq F value Pr(>F)
## Groups 7 3.6516 0.52166 14.115 < 2.2e-16 ***
## Residuals 544 20.1053 0.03696
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Как видно из анализа Anova для дисперсий и графика, дисперсии различаются, perMANOVA делать нельзя.
1) Можно утверждать, что экспрессия белков различается в экспериментальных группах. Различия в группах обусловленны в большей степени диагнозом и стимуляцией к обучению и в меньшей степени инъекцией мемантина.
2) Основная проблема даннных - это выбросы. В данном случае чистка является не тревиальным процессом в силу огромного числа переменных и выбросов. Без выполнения данного условия построение качественной дисперсионной модели и осуществление perMANOVA - анализа - затруднительно.